07 歌詞に基づく歌声アノテーションのためのインタフェース構築
https://scrapbox.io/files/6752b4a4a3b1237f331776cf.png
07 歌詞に基づく歌声アノテーションのためのインタフェース構築
中野 倫靖(産業技術総合研究所), 加藤 淳(産業技術総合研究所), 渡邉 研斗(産業技術総合研究所), 濱崎 雅弘(産業技術総合研究所), 後藤 真孝(産業技術総合研究所)
歌声データに対して時間的なアノテーション (ビブラート,表情,声質など) をするために,ユーザが歌詞文字列をクエリとしてそれにアライメントされた歌声時間範囲を探索,アノテーション付与する興味深い手法を提案している. 従来法に比べてアノテーションコストが下がるのが明確であり,その実用性は高く評価できる. 一方で,まだ発展途上であり,実用性を考えると多くの疑問が残るのも事実であるが,WISSで議論をするには十分に面白い研究であり,採録と判断する. 会議では実用性や発展可能性についての議論がなされることを期待する.
声に対する時間局所的なアノテーションを行う際に,その歌詞を用いるインタラクションを提案する.従来,時系列メディアのアノテーションでは,アノテーション内容に時刻情報を含める強ラベルと,時刻情報が含まれない弱ラベルを基本として,それらの派生や改善が提案されてきた.本研究では,歌詞の文節を選択するだけでその時刻情報を指定できて,簡単にアノテーションできる「歌詞ベース」のアノテーションを提案する.歌詞ベースのアノテーションでは,その音源を再生するプレーヤと,既存のテキストエディタやExcel等のスプレッドシートがあれば可能であるので,本稿ではまず,Excelをアノテーションエディタとして用いて実際にセマンティックタグをアノテーションした結果を分析することで,実用性を検証する.そしてさらに,その使いやすさを向上するためのインタフェースとして,Lyrics-Based Singing Annotatorを提案する.本インタフェースでは,クリック可能な歌詞と音源を同期して再生する機能,付与対象の歌詞をループ再生する機能,特定のタグが付与された歌詞をハイライトする機能を持つ.
論文:
参加者メモ・コメント:
エネルギーすごい鈴木一平 (BONSAI STUDIO).icon
声出てる narumi.icon
歌声力鈴木一平 (BONSAI STUDIO).icon
あれでもささやき声です伊藤正彦.icon
芸風がグループで同じですね。koike.icon
筑波大学の山本雄也くんが同期で、彼の研究を思い出してGoogle Scholar を見に行ったら共同研究していた回鈴木一平 (BONSAI STUDIO).icon 音圧競争海苔波形でも安心!鈴木一平 (BONSAI STUDIO).icon
歌詞にマッピングされないハミングやフェイクとかのアノテーションは抜けてもあまり影響はない感じでしょうかtakahiro.hara.icon
Excel実装でサッと始めるというのよいですねhogelog.icon
Excelでプロトタイプいいですね!Kenta Yamamoto | BONSAI STUDIO.icon
歌詞の単語と、ビブラートや歌い方などの情報に相関があるのか興味があります(歌詞の単語そのものよりメロディラインにより依存することが予想されますが)takahiro.hara.icon
図からカラオケしか想像できない私…
ジャンルがDTMで作った音楽とかだとアノテーションも簡単そうだけど、他ジャンルだとラベリングできない部分が多そうMasa Ohta.icon
文節を並べていく歌詞は相性良さそう鈴木一平 (BONSAI STUDIO).icon
アノテーションはキーボードショートカットやカスタムハードウェアとの相性が良さそうだなと思いました。komatsuh.icon
ビブラートは文節単位より細かい粒度で付いてそうだと思いました。例:「穿つ~」の「つ」の後半のみビブラート
この曲好き
ある単語がどんな感じで歌われるかを大量の曲で学習して、作曲AIの向上とかできそう
言ってた
悲しい歌詞の曲をポジティブにするとか、楽しい歌詞の曲をネガティブにするとか、面白そう
円舞曲<ワルツ>
ありがとうございます
とても使いやすそうだったのですが、歌以外(楽器)に応用するのは難しそうですかね(歌詞がない部分があるので)伊藤正彦.icon
ラベルによってはAメロとかサビ単位で分けれそうに思いました。大雑把すぎますかね
小節や拍で分割したらより詳細なボーカル表現をアノテーション出来そうな気がしました
歌詞の単語だけではなくその単語の語尾にもラベル付けできるとより表現の幅が広がると思いました。
語尾を長く伸ばしたときのビブラートなど...
UIがとてもよくて見習いたいですTatsuya NAGASAWA.icon
質疑応答
歌詞のセグメント切りの基準はあるのでしょうか?メロディもセグメント切りの基準に含まれているのでしょうか(「君に」「逢う」「ことだけが」と切れるし、「君に」「逢うこと」「だけが」とも切れると思いました)AkitomoSato.icon
課題に挙がってましたね。AkitomoSato.icon
インターフェースとはちょっとズレた質問で恐縮ですが、そもそも、特に三番目の感性的なアノテーションはアノテーターによって主観的にならないのか気になりましたyuiseki.icon
主観的にならないような支援がインターフェースでできると良いのではと思いましたyuiseki.icon
回答
一つの曲に対して三人がアノテーションする
複数人がアノテーションすることは一般的
デモで見せたのは二人以上が同じアノテーションをした結果
アノテーション結果を統合しやすい形でアノテーションすることが重要
そのためにも分節で区切ったことは効果的だった
なるほどyuiseki.icon
ありがとうございます!yuiseki.icon
分野外素人質問なのですが、Vocal単体で聞いてアノテーションすることなどはないんでしょうか?(良くも悪くも、曲のイメージに引っ張られてしまわないのでしょうか)Kenta Yamamoto | BONSAI STUDIO.icon
歌詞ってまともな日本語じゃないこともあるような気がするんだけど,一般的な形態素解析で大丈夫なんだろうか,というしょうもないことが妙に気になる…くらもといたる.icon